Carrera: Licenciatura en Economía
ÍNDICE DE ACTIVIDAD
ECONÓMICA DE MENDOZA, POR
ANÁLISIS DE COMPONENTES
PRINCIPALES
Trabajo de Investigación
POR
Fernando Deluret
Profesor Tutor
Mónica Calderón
M e n d o z a - a ñ o 2 0 1 9
INDICE
Introducción .………………………………………………………………………………………………….……………………........
3
CAPÍTULO I CONCEPTOS PREVIOS …………………………………………………………………….……………….........
4
1. Vectores y espacios vectoriales ………………………………………………………………….………….
4
2. Ortogonalidad ……………………..……………………………………………………………….……………...
5
3. Proyecciones ortogonales ……………………………………………………………………………………..
5
4. Complemento orthogonal …………………………………………………………….……………………….
8
CAPÍTULO II ANÁLISIS DE COMPONENTES PRINCIPALES …………………………………………………….........
10
CAPÍTULO III ANÁLISIS FACTORIAL …………………………………………………………………………………….........
19
CAPÍTULO IV ROTACIÓN DE COMPONENTES …………………………………………………………………….........
23
CAPÍTULO V CASO PRÁCTICO …………………………………………………………………………………………….........
25
Conclusiones ………………………………………………………………………………………………….……………………........
32
Bibliografía consultada .……………………………………………………………………………….……………………........
34
INTRODUCCIÓN
El análisis de componentes principales (ACP) es un método de reducción de dimensionalidad lineal
de los datos. El objetivo es poder reducir el número de variables necesario para representar un conjunto
de datos. Para esto lo que se hace es hacer una proyección ortogonal de los datos originales en un
subespacio vectorial de menor dimensión, y que por ende pueda ser expresado como un conjunto menor
de variables.
El presente trabajo se estructurará de la siguiente manera, en el capítulo 1 se analizarán una serie
de conceptos previos necesarios tanto para el desarrollo matemático del ACP como para su interpretación
práctica. En el capítulo 2 se realizará el desarrollo a partir del cual surge la formula resultante del ACP. En
el capítulo 3 se analizará el tema desde la perspectiva del análisis factorial que nos permite añadir el
componente de interpretabilidad de las componentes. En el capítulo 4 se analizará la rotación de
componentes, que es la herramienta que nos permitirá relacionar las variables originales con las
componentes o factores interpretando estas últimas como variables subyacentes observadas a través de
los datos iniciales. En el capítulo 5 se trabajará con un caso numérico, el cual tendrá por objetivo tratar de
construir un índice de actividad mensual para la provincia de Mendoza. Y, por último, se analizarán las
consecuencias prácticas del ACP y se sacarán algunas conclusiones.
CAPÍTULO I
CONCEPTOS PREVIOS
1. Vectores y espacios vectoriales
Trabajando en
y dados 2 vectores 
y 
como se muestra en el Gráfico 1, podemos definir
el módulo de un vector, la distancia entre vectores y el ángulo entre vectores de la siguiente manera:
Gráfico 1





Podemos definir el producto punto entre 2
vectores como:
 
El módulo de
será 

y esto
es igual al segmento 
.
La distancia entre

será el modulo del
vector diferencia entre ambos 
 
 lo
cual va a ser igual al segmento 
.
El ángulo entre estos 2 vectores va a ser tal
que: 




Un espacio vectorial es un conjunto de vectores que cumplen las siguientes propiedades:
Son cerrados respecto de una operación (por ejemplo la suma): si

 
Asociatividad:
 
 

 
  
Elemento neutral (e): 
  
Elemento inverso: 


 

Multiplicación por un escalar:

Un subespacio vectorial es entonces un subconjunto de ese espacio tal que si aplicamos cualquiera
de las operaciones arriba mencionadas entre vectores del subespacio el vector resultante seguirá
perteneciendo al mismo. Una consecuencia de esto es que el subespacio debe tener si o si el elemento
neutro, por ejemplo, las rectas que pueden ser subespacio de
deben pasar si o si por el origen de
coordenadas.
Dado un espacio vectorial V, un conjunto generador para este espacio es un conjunto de vectores
que combinados linealmente permiten construir cualquier vector de dicho espacio. Si adicionalmente el
conjunto generador cumple las siguientes propiedades se dice que este conjunto es una base de ese
espacio vectorial y a cada uno de los vectores de la base se le llama vector base:
Mínimo:
, será mínimo si no existe otro conjunto generador con
menos de k vectores.
Los vectores de A deben ser linealmente independientes
Una propiedad de una base es que 2 combinaciones lineales diferentes de sus vectores base darán
como resultado 2 vectores diferentes entre sí siempre.
Una base estándar de un espacio
, es una base tal que la matriz formada por sus vectores base
es la matriz identidad de dimensión   . Por ejemplo, la base estándar para
es:


Puede haber otras bases que no sean la estándar para un espacio vectorial, pero todas van a tener
la misma cantidad de vectores.
2. Ortogonalidad
Se dice que dos vectores son ortogonales entre sí, si el ángulo que forman es de 90°. Por lo que,
dada la fórmula del ángulo entre vectores:





Para que esto se cumpla el producto punto entre ambos vectores debe ser igual a cero. Una forma
de interpretar la ortogonalidad es que dos vectores ortogonales son “lo más diferentes posible” entre sí.
Si los vectores de una base son ortogonales entre si
y todos tienen módulo
igual a 1
entonces la base es ortonormal.
3. Proyecciones ortogonales
Dado el subespacio vectorial
y el vector
, el cual puede ser representado como
una combinación lineal de los vectores base de
. Supongamos que queremos representar en el
subespacio U, vamos a querer que el nuevo vector  sea lo más parecido al vector original. Lo cual
es equivalente a minimizar el segmento que representa el vector diferencia  , el cual en el Gráfico
2 está representado por las distintas líneas punteadas para cada caso.
Siendo


una base del subespacio U, el nuevo vector  va a poder ser expresado
como una combinación lineal de dicha base

, donde es un escalar y representa las
coordenadas de  en U.
La pendiente de U me la va a dar la relación entre las componentes

del vector base
.
Gráfico 2
Como se puede observar en el grafico anterior de acuerdo al que elijamos va a ser el largo del
vector  resultante. Y por ende, el largo del vector diferencia   va a depender también de .
Existirá un
que minimice esa distancia, el cual va a ser tal que haga que el vector diferencia y el vector
base
sean ortogonales (
). Esto como se vio en el apartado anterior es equivalente a decir que
el producto punto entre ambos vectores es igual a cero, matemáticamente se puede expresar:
 
  
Por propiedad de bilineariedad del producto punto

  

Usando la definición de w’

  




Dado que 
es un escalar, podemos
moverlo al final de la multiplicación
 





La matriz de proyección es aquella matriz (en este caso   ) que multiplicada por el vector
original w nos da la proyección de este en el subespacio U (w’). Si
es ortonormal (

) la matriz
de proyección va a ser simétrica:
Se puede ver entonces, que antes para representar al vector w necesitábamos dos coordenadas
(

) y ahora necesitamos una sola ().
Algo importante a destacar en este tema es que el nuevo vector w’ va a seguir perteneciendo a
, a pesar de que ahora solo dependa de un parámetro (). Esto es debido a que el vector base de U (
)
tiene 2 componentes y por ende w’ también. Por este motivo no sería lo mismo por más que hagamos una
proyección sobre una recta partir desde
, que por ejemplo desde
, en cuyo caso
tendría 3
componentes. Una forma de ver esto es que
nos está dando información de acuerdo a los grados de
libertad de rotación del espacio vectorial inicial, por ejemplo en
la recta U solo puede rotar a lo largo
del plano XY en tanto que en
la recta podría rotar respecto al palo respecto a XY, YZ y XZ.
Supongamos ahora que
es decir
y
, pero ahora en vez de ser
una recta (dimensión igual a 1) es un subespacio M-dimensional, con . Es decir, tiene M vectores
base
donde a su vez cada
tiene dimensión   ya que U es un subespacio de
.
Para aclarar esto último, la cantidad de vectores base
que tenga U dice si el o los vectores que
se proyecten lo harán sobre una recta, un plano etc. Y “D” lo que dice es que esa recta o plano debe
dibujarse en el espacio D-dimensional. Por ejemplo
genera una recta en
en tanto que el
conjunto


genera un plano en
, luego sobre ese plano o recta es sobre el que se
proyectara el vector original.
En este caso multidimensional

notado matricialmente
, donde B es la
matriz que representa el conjunto de los vectores base de U (con dimensión  ) y es el vector  
con las M coordenadas.
La condición que se ponía antes para que la proyección fuera ortogonal es que el vector diferencia
fuera ortogonal con el vector base del nuevo subespacio. Por ende lo que se va a exigir ahora es que 
 sea ortogonal con cada uno de los M vectores base. Para verlo con un ejemplo, supóngase el caso en
que se quiere proyectar un vector de
en el plano XY (es decir componente z=0) el cual lo vamos a
suponer horizontal como se ilustra en el gráfico 3, en tanto que la componente Z daría la altura. La forma
de que el vector diferencia sea lo más pequeño posible seria bajando verticalmente, es decir en forma
perpendicular al plano XY, con lo cual el vector diferencia va a ser ortogonal a todos los vectores de XY
incluidos ambos vectores base.
Gráfico 3
 

Es decir, ahora hay un sistema de M ecuaciones simultaneas. Notado matricialmente:





 





Donde ahora w’ y son las fórmulas para calcular la proyección pero para el caso general de D
dimensiones y llevar al vector a un subespacio de con solo M coordenadas (). Una vez más w’
seguirá siendo un vector   .
4. Complemento ortogonal
Dado un espacio vectorial
y un subespacio 
(siendo n y k las dimensiones de
los espacios). Entonces el complemento ortogonal de W es un subespacio
de dimensión (n-k), tal que
contiene todos los vectores de V que sean ortogonales a todos los vectores de W.
Cada vector se puede descomponer ortogonalmente (de forma única) de la siguiente forma:



Donde
y
son los vectores base de los subespacios W y
respectivamente. Lo único que
se está diciendo es que cualquier vector se puede expresar como una suma de un vector de W más un
vector de
. Por ejemplo, supongamos que W y
son 2 rectas pertenecientes a
perpendiculares
entre sí, cualquier vector de
puede ser expresado como una suma de vectores como en el Gráfico 3.
Gráfico 4
CAPÍTULO II
ANÁLISIS DE COMPONENTES PRINCIPALES
Dado un conjunto de datos de D variables y N observaciones de cada variable, podemos
representar los datos como un conjunto de N vectores pertenecientes a
:



Donde cada
está formado por una observación de cada una de las D variables iniciales. El análisis
de componentes principales busca encontrar una representación con una dimensión menor pero que sea
lo más parecida posible a X. Para lograr esto lo que se hace es hacer una proyección ortogonal de los datos,
ya que esto minimiza el vector diferencia con respecto a los datos originales.
Para ver esto con un ejemplo, supongamos que como se muestra en el gráfico 5 tenemos dos
variables iniciales (D=2)

. Podemos representar gráficamente el par de datos como un vector en
,
entonces tendremos tantos vectores como cantidad de observaciones haya en las series de datos. Nuestro
objetivo será entonces encontrar una representación de menor dimensionalidad de este conjunto de
datos, en este caso la única dimensionalidad menor a dos es uno, o sea que el objetivo sería ajustar esa
serie de vectores a una recta. Existirán entonces incógnitas a resolver, primero como representar cada uno
de los vectores iniciales de tal forma que haya el menor error posible, y segundo como elegir la pendiente
de esa recta de tal forma que se minimice el conjunto de los errores. Es decir, minimizar la suma de los
segmentos punteados del gráfico 5. Ahora bien, recordando lo visto en proyecciones ortogonales eso da
respuesta a la primera de las incógnitas, la forma de representar a cada vector dentro del subespacio U es
proyectarlo ortogonalmente, ya que de esta manera se asegura que se minimiza el error de proyección.
Queda entonces resolver el problema de encontrar la pendiente de la recta U.
Una acotación metodológica a hacer en este punto, es que, si bien se habla de la recta U, esta es
en realidad un subespacio vectorial. Por lo que no puede ser cualquier recta, debe pasar por el origen de
coordenadas. La consecuencia práctica de esto es que a la hora de trabajar con ACP los datos deben tener
media igual a cero.
Gráfico 5
Para empezar recordemos que cada uno de los vectores
puede ser representado como una
combinación lineal de los vectores base de
:




Donde
es cada uno de los vectores base y

es un escalar que representa la coordenada
correspondiente al vector
. Cada
va a tener dimensión D1, ya que es un vector base de
.
Supondremos para trabajar con ACP que las bases van a ser ortonormales, es decir que

.



La ecuación (2) surge de la deducción de proyección ortogonal para las coordenadas, donde

por ser las bases que usaremos para ACP ortonormales.


puede ser visto como la
proyección ortogonal de
en el subespacio unidimensional generado por
(es la proyección sobre esa
recta o eje). Una aclaración a hacer aquí es que la dimensión inicial de los datos es D (se necesitan D
coordenadas para representarlos), y lo que se busca es reducir esa dimensión a M minimizando el error
en el proceso. La ecuación (2) muestra cual va a ser la magnitud de una de esas M coordenadas, más
específicamente la coordenada sobre el subespacio unidimensional generado por el vector
.
Para el ACP se han hecho 2 supuestos importantes, uno es que los datos deben tener media cero
y el otro es que las bases van a ser ortonormales, profundicemos un poco en este último supuesto.
El hecho que la bases sean ortonormales significa dos cosas, una ya la dijimos y es que la norma
de cada vector base es 1 (

), la otra es que los vectores base van a ser ortogonales entre sí, es
decir, su producto punto va a ser igual a cero (
). Gráficamente esto último
significa que los vectores base, que pueden ser vistos como los nuevos ejes de referencia para los datos
transformados (ya que es respecto de quienes están dadas las coordenadas) serán perpendiculares entre
sí.
Con esto en mente retomemos la formula obtenida para proyecciones ortogonales M-
dimensionales:

Donde
es la proyección ortogonal del vector
en el subespacio M-dimensional y B es la matriz
formada por el conjunto de los M vectores base de dicho subespacio
donde cada
tiene dimensión  . Analizando la matriz resultante de
tendremos que:
Dado que por ser bases ortonormales

, entonces
tenemos como resultado la matriz identidad  . Por lo que podemos reescribir
de la siguiente
manera:
Podemos expresar el problema de reducir la dimensionalidad de la siguiente manera, de acuerdo
a lo visto en complemento ortogonal de un subespacio vectorial:








Donde el primer término es el subespacio sobre el que vamos a proyectar los datos y el segundo
término (que representa un subespacio

dimensional que es el complemento ortogonal del
subespacio principal) para nuestra proyección es cero ya que haremos la proyección en el subespacio
principal.
Definamos una función que represente el error de hacer la proyección ortogonal de los datos,
que como ya dijimos, puede verse como la sumatoria de los vectores diferencia (representados en el
gráfico 5 por las líneas punteadas).

 



 

 

 
Lo que buscamos aquí es encontrar un subespacio tal que minimice esta función de error. Ahora
bien,
va a depender de los valores que tomen

y
entonces:







 








 



   



  



Donde el segundo término sale de derivar (3) respecto a

suponiendo M=1, es decir para la
proyección unidimensional sobre el subespacio generado por el vector
. En el segundo paso lo que se
hace es usar (3) donde
es la proyección de
en el subespacio principal, por eso la sumatoria solo llega
hasta M. En la línea cuatro se simplifico la sumatoria ya que el producto punto resultante va a ser cero
para todos los términos donde por la propiedad vista de bases ortonormales, y también por esto es
que podemos decir que
=1.
Observando la expresión a la que llegamos vemos que coincide con (2) que era la que habíamos
obtenido para proyecciones ortogonales. Entonces, lo que estamos diciendo aquí es simplemente que las
coordenadas

que minimizan el error J son las que nos proyectan ortogonalmente el vector
en el eje
generado por
.
Visto en términos del gráfico 5 queremos decidir la pendiente de la recta U. Para simplificar la
resolución matemática primero re expresaremos la función J para dejarla en función de
. Partiendo de
la definición de
en (3) y reemplazando

de acuerdo a (2) podemos expresar:





Teniendo en cuenta esta última expresión obtenida, y expresando
de la ecuación (1) como la
suma del subespacio principal más el complemento ortogonal:






Podemos entonces re escribir nuestro vector diferencia como:
 



Reemplazando esto en nuestra función J usando el hecho de que el producto punto

se puede expresar vectorialmente de cualquiera de esas dos formas:
















Expliquemos brevemente el proceso matemático precedente. En la segunda línea se saca la
sumatoria fuera de la norma ya que va a ser lo mismo sacar la suma de los vectores y sacarle la norma que
sacar la norma de todos los vectores y sumar dichas normas, también se hizo uso de que la norma de cada
vector base es igual a 1 por bases ortonormales. En la tercera línea se usó la definición de norma para
expresarla como producto punto. En la cuarta línea se saca “afuera” la sumatoria que depende de i y
quedan dentro de la sumatoria con subíndice j solo los términos que dependen de j.
Analizando la matriz que llamamos S, va a ser la suma de N matrices  . Por lo que cada
elemento de la matriz resultante va a ser la suma de ese elemento de cada una de las N matrices de la
sumatoria. Adicionalmente tenemos que multiplicar cada uno de esos elementos de la matriz por
.
Podemos ver entonces, que ya que los datos tienen media igual a cero, esta matriz es la matriz de varianzas
y covarianzas ( ) de las D variables iniciales. Si los datos estuvieran estandarizados (adicionalmente
estuvieran divididos por su desviación estándar) la matriz que obtendríamos aquí seria la matriz de
correlaciones.
Supongamos el caso en que tenemos dos variables iniciales y queremos reducir los datos a una
sola componente principal (
). Si planteamos un lagrangiano para obtener la condición de
minimización a partir de la formula obtenida en (4) y teniendo en cuenta la restricción de bases
ortonormales quedara entonces:



   


  



  


Donde en la cuarta línea se usó la regla de derivada multivariante para derivar respecto a
. En la
sexta línea por ser S una matriz simétrica puede conmutar de esa forma la multiplicación. En tanto que en
la última línea solo reemplaza el resultado anterior en la función J.
Analicemos la expresión (5), lo que tenemos ahí es un problema de eigenvalores y eigenvectores.
Para recordar, dada una matriz A ( ), será eigenvector de A si se cumple que:

Donde es un escalar y es el eigenvalor de la matriz A correspondiente a ese eigenvector. Para
minimizar entonces J lo que se debe hacer es buscar los eigenvectores de la matriz S y elegir como
subespacio principal el eigenvector que tenga el . De esta manera su complemento ortogonal que será el
omitido tendrá el mas chicho.
Notar que los eigenvectores serán los vectores base, por lo cual por bases ortonormales serán
ortogonales entre sí, y el eigenvector con el eigenvalor más alto es un vector que apunta en la dirección
en la que los datos tienen más variación (y el eigenvalor va a ser el valor de esa variación).
Si ampliamos esta lógica para el caso D-dimensional tendremos que:

   

Es decir, minimizo J eligiendo los D-M eigenvalores más chicos y, por lo tanto, proyectando los
datos en el subespacio formado por los vectores correspondientes a los M eigenvalores mayores.
Algo a remarcar en este punto, es el hecho de que vamos a tener D eigenvalores (ya que la
dimensión de la matriz S es DxD), de los cuales elegiré los M mayores y descartare los D-M más chicos.
Analicemos entonces los resultados obtenidos, proyectar los vectores ortogonalmente sobre el
subespacio principal 

. Notando esto matricialmente para el caso de N vectores (recordemos
que tenemos N vectores porque tenemos N observaciones) tendríamos:


















  





  



Cada una de las N observaciones de mi nueva variable
va a ser una combinación lineal de las D
variables iniciales, combinada usando como coeficientes los valores del eigenvector
. Cada columna de
la matriz Z va a ser una de mis nuevas M variables, que no es ni más ni menos que una de las M
coordenadas visto desde el punto de vista geométrico de las proyecciones ortogonales.
Mirando los resultados obtenidos para proyecciones ortogonales M-dimensionales, tenemos que
. La única aclaración metodológica que corresponde hacer es que aquí estamos viendo cada uno
de los N vectores horizontalmente como una de las filas de la matriz
, es decir que cada fila podría ser
expresada de acuerdo a la ecuación de proyecciones ortogonales de la siguiente manera



.
Expresando esto matricialmente para el caso de N vectores:



Esto lo que nos está diciendo es que yo puedo “reconstruir” mis datos originales usando la matriz
B como decodificador, la perdida de información que voy a tener va a ser la que perdí al omitir el
subespacio D-M dimensional complementario al subespacio principal.
Retomemos la expresión

y calculemos la esperanza y la varianza de nuestra nueva
variable:




Donde en la primera ecuación se usó el hecho de que nuestros datos iniciales deben estar
centrados respecto a su media.
Si observamos la expresión obtenida para la varianza de
vemos que es igual a la obtenida
cuando buscábamos cada una de las D-M dimensiones omitidas, comparando ambos resultados tenemos
que:







Interpretando esta última expresión es que podemos decir que buscamos retener la mayor
cantidad de varianza posible, o que vamos a elegir los M componentes principales con mayor varianza.
Esto es porque
es la proyección ortogonal de nuestros datos sobre el eje generado por el vector
, y
este eje es elegido de tal forma de maximizar la varianza de nuestros datos sobre él. Este enfoque nos
permite compatibilizar la idea de que al retener la mayor cantidad de varianza posible estamos
manteniendo la mayor cantidad de información, y es porque al mantener la mayor cantidad de varianza
estamos minimizando el error de proyección de nuestros datos en sobre ese subespacio o eje.
Una medida de la variabilidad original de los datos podría ser la suma de las D varianzas de las
variables originales X. Por teoría de diagonalización (cuya demostración escapa al alcance de este trabajo)
podemos decir que:




Por otra parte, la traza de S (la suma de todos los elementos de su diagonal principal) va a ser la
suma de las D varianzas iniciales, que es como dijimos nuestra variabilidad total de los datos iniciales.
Adicionalmente si las variables iniciales están estandarizadas esta varianza total será igual a D (cada una
de las D variables iniciales tiene var=1). Tenemos entonces aquí una relación importante entre la varianza
original y la varianza retenida después del ACP. Por ejemplo, si retuviéramos todas las componentes
principales (M=D) no perderíamos varianza, lo que puede ser visto como que no habría perdida alguna de
información.
Podríamos decir que la proporción o porcentaje de variabilidad que explica cada componente va
a ser:


Algo que hasta acá hemos dado por sentado es M, es decir la cantidad de componentes que vamos
a retener. Si bien podríamos tener distintos criterios de decisión uno de los más usados es retener todas
las componentes cuya varianza sea mayor a 1 (
), es decir que sea mayor a la varianza de cualquiera
de las variables iniciales (todas igual a 1). La interpretación conceptual de esto es que la nueva componente
va a ser “mejor” que cualquiera de las variables iniciales por si sola ya que va a contener más información.
CAPÍTULO III
ANÁLISIS FACTORIAL
El análisis factorial nos da un enfoque diferente del problema de reducción de dimensionalidad. El
planteo del que partimos es el siguiente, dado un conjunto de D variables iniciales existen un conjunto M
de variables subyacentes o factores que no son observables directamente sino a través de combinaciones
de las variables iniciales. Lo que se busca es representar nuestros datos originales con este conjunto de
factores, teniendo la menor perdida de información posible, y al igual que en análisis de componentes
principales queremos los factores sean obtenidos de tal forma de que no estén correlacionados entre .
Esto nos agrega dos elementos de juicio al análisis realizado hasta acá, uno es el principio de parsimonia
queremos que la cantidad de factores sea lo menor posible (hasta aquí habíamos tomado M como dado y
no elegimos un criterio sobre el cual elegir la cantidad de componentes retenidos). El otro elemento es el
principio de interpretabilidad, es decir queremos que los factores obtenidos puedan ser interpretables.
Para aclarar esto pongamos un ejemplo, supongamos que se quiere analizar la importancia que
los consumidores dan a 14 variables que se consideran relevantes para la compra de un automóvil. Estas
variables son: reparaciones baratas (RB), amplia gama de colores (GC), interior espacioso (IE), bajo
consumo de gasolina (BC), manejabilidad (MA), aspecto moderno (AM), valor de recompra alto (RA),
confortable (CO), motor potente (MP), aspecto elegante (AE), cómodo de conducir (CC), atractivo de línea
(AL), maletero amplio (MA) y fácil de aparcar (FA). Se observa que las 14 variables pueden caracterizarse
por cuatro dimensiones subyacentes relacionadas respectivamente con el confort (factor I), con el coste-
eficiencia (factor II), con la elegancia (factor III) y con el manejo fácil (factor IV) y no observables
directamente. Por lo tanto, en vez de considerar las 14 variables, simplificaremos las cosas, de forma que
sólo cuatro factores deban considerarse para caracterizar la estructura subyacente de los datos. En el
gráfico 6 se puede ver este análisis.
Gráfico 6
Planteando matemáticamente el modelo factorial nos quedaría:

  

 


  

 
Se supone a los factores comunes
como variables estandarizadas (media cero y
varianza unitaria) y que además no están correlacionadas entre . Se supone también que la matriz de
covarianzas de los factores específicos es una matriz diagonal (factores únicos incorrelacionados entre sí)
y tienen media igual a cero (
 )
Dado que las variables X son variables tipificadas, su matriz de covarianzas es igual a la matriz de
correlación poblacional S, matriz que puede descomponerse de la siguiente forma:


 

 


  



 


       
Expresando esto matricialmente obtenemos:














Si analizamos el resultado para el primer elemento de S (que es la varianza de
) tenemos que:



  

Donde
es el porcentaje de varianza de la variable
explicado por los factores comunes, y se
llama comunalidad y
es la parte de la varianza de
que la explica su factor especifico y se la llama
especificidad.
Ahora bien, cómo relacionamos este análisis de factores con nuestro análisis de componentes
principales. Partamos de la solución expresada matricialmente a la que llegamos en ACP. Es importante
prestar atención al cambio en la notación, ya que hasta aquí usábamos notación matricial donde cada
elemento era una de las N observaciones, la transformación que hacemos aquí es pasar a expresarlo
vectorialmente, donde cada variable
y
es un vector Nx1 que contiene todas las observaciones.
Teniendo esto en cuenta re expresemos la solución obtenida:



















  



  

Ahora bien, también habíamos llegado a la conclusión de que



, que notado
vectorialmente quedaría:


  



  

Recordemos que la diferencia entre 
y
era la perdida de información que teníamos por la
reducción de dimensionalidad, supongamos entonces que realizáramos el ACP sin reducir dimensionalidad
(M=D), es decir conservando los D componentes principales. Este sistema de ecuaciones quedaría de la
siguiente forma:

  



  

Pero el análisis factorial exige que los factores estén estandarizados, entonces estandarizando
nuestras variables (teniendo en cuenta los resultados obtenidos anteriormente

) y llamando
a las variables estandarizadas quedaría:
El cual podría ser re expresado como:


  


 


  



  

 


 

Re expresando cada
para cada una de las D ecuaciones tendremos:


  

Comparando este resultado con el sistema de ecuaciones planteado al inicio del análisis factorial:

  

 


  

 
Donde cada




Vemos entonces que estandarizando cada uno de los componentes principales obtenidos del ACP
podemos interpretar los resultados del mismo como un análisis factorial, obteniendo así la ventaja de este
de que los factores obtenidos puedan tener una interpretación a partir de la rotación de las componentes
que se analizará en la siguiente sección.
Para finalizar esta sección vamos a demostrar cómo cada uno de los

puede ser interpretado
como la correlación entre la variable inicial j” y la componente “i”. Notando vectorialmente
y 
como
los vectores con las N observaciones para la variable “j” y la componente “i” respectivamente podemos
calcular su covarianza como :


Si agregamos un vector de dimensión  que tenga 0 en todas las posiciones y 1 en la posición
“j” podríamos notar a
como:







Siendo 
la matriz de datos iniciales traspuesta. Adicionalmente recordando que

:

















Donde se hace uso de la expresión que habíamos obtenido para la matriz de correlaciones S y de
la definición de coeficiente de correlación para 2 variables. De esta forma llegamos a la demostración de
que cada uno de los coeficientes

representa la correlación entre la variable inicial “j” y la componente
“i”.
La matriz formada por todos los coeficientes

es entonces la matriz de cargas factoriales que
contiene cada una de las correlaciones entre los factores retenidos y las variables iniciales.
CAPÍTULO IV
ROTACIÓN DE COMPONENTES
En el proceso de rotación de componentes lo que se hace gráficamente es girar la dirección de
estos nuevos ejes de referencia que van a definir el subespacio sobre el que proyectaremos los datos.
Existen 2 tipos de rotaciones, las rotaciones ortogonales que mantienen los ejes perpendiculares, con lo
cual las componentes resultantes seguirán teniendo la característica de no estar correlacionadas entre sí;
y las rotaciones oblicuas las cuales sacrifican un poco de esa independencia con el objetivo de obtener una
mayor interpretabilidad de las componentes. A su vez dentro de cada tipo hay varios métodos que se
pueden usar, nosotros en este apartado nos centraremos en la rotación Varimax, que es una rotación
ortogonal y es la de uso más extendido.
Lo que buscamos con la rotación de componentes es que cada una de las variables tenga una
correlación máxima con uno de los factores (es decir, uno) y cero con el resto de los factores o
componentes. De tal forma que esto facilite la tarea de asociar a cada factor como esa “variable
subyacente” representada por un grupo de las variables iniciales.
Imaginemos que tenemos un conjunto de datos en
(es decir 3 variables iniciales) que
podríamos agrupar dentro de un determinado elipsoide, y que vamos a representar estos datos en un
plano
(es decir 2 componentes). La metodología hasta aquí usada por el ACP es ir eligiendo
iterativamente como ejes de cada componente el eje sobre el que el conjunto de datos tenga mayor
varianza. En este caso como vamos a tener los datos representados en un plano, tendremos que nuestros
nuevos 2 ejes serán los 2 ejes sobre los que los datos tengan máxima varianza, y que van a coincidir con
los 2 ejes más grandes de este elipsoide imaginario. Bien lo que hacemos al rotar las componentes es rotar
estos 2 ejes (manteniéndolos perpendiculares entre sí) sin variar el plano que generan. La consecuencia
de esto es que todos los puntos originales se van a seguir representando sobre el mismo plano, pero
respecto a unos ejes diferentes, es decir solo van a cambiar sus coordenadas. Esto permite que al rotar las
componentes no perdamos nada del total de varianza explicado por las componentes en su conjunto.
Metodológicamente lo que hacemos es que la información perdida por la primera componente (ya no está
en la dirección en la que los datos tienen máxima varianza, por lo tanto, va a disminuir ese nivel de varianza
captada) va a ser recogida por la segunda. Podríamos generalizar esto diciendo que la información perdida
por las primeras K componentes va a ser recogida por las ultimas M-K componentes.
Matemáticamente la rotación Varimax lo que hace es calcular una variable que llama simplicidad
(
), que es la varianza de los cuadrados de las cargas factoriales (

) para un determinado factor (i).
Adicionalmente lo que se hace comúnmente es aplicar lo que se llama la Normalización de Kaiser, donde
cada

se divide por la comunalidad de la variable inicial “j” (
). Esto se hace para evitar que las con
mayor comunalidad tengan más influencia (más peso) en la solución final. Una vez calculada esta
simplicidad normalizada para cada uno de los factores lo que se hace es maximizar la sumatoria de todas
estas simplicidades (
). Matemáticamente la expresión que se maximiza es:








Dos notas interesantes de casos extremos que se pueden hacer sobre este tema es que, si no
reduzco la cantidad de variables (M=D) puedo rotar los ejes como quiera y no pierdo información, solo
cambian las coordenadas (coeficientes). Y que justamente por la forma iterativa en que se realiza si
tuviéramos una sola componente no podríamos realizar ninguna rotación, como mínimo se deben tener
dos.
CAPÍTULO V
CASO PRÁCTICO
En esta sección desarrollaremos un ejemplo aplicado del ACP en el que a partir de una serie de
variables iniciales (las cuales se detallan en la tabla 1) que se consideran representativas para la actividad
económica de Mendoza se intentaran obtener una cantidad reducida de componentes que las representen
y a partir de los cuales se pueda construir un índice de actividad económica para la provincia.
La utilidad práctica que se busca con este caso es que, dado que las variables usadas están
disponibles con periodicidad mensual el índice resultante también lo será, con lo cual podría servir como
un estimador de la actividad económica de la provincia, que hoy solo existe anualmente.
Tabla 1
Variable
Descripción
AUTOMOTRIZ
Ventas Mensuales de Automotores Cero Km por Segmento. Mendoza. Enero 2010 -
Noviembre 2018
EELECTRESIDENCIAL
Consumo de Energía Eléctrica Residencial en Mwh. Años 2004 - 2019
EELECTCOMERCIAL
Consumo de Energía Eléctrica General/Comercial en Mwh. Años 2004 - 2019
EELECTINDUSTRIAL
Consumo de Energía Eléctrica Grandes Demandas/Industrial en Mwh. Años 2004 -
2019
ENARGAS TOTAL
SISTEMA
Total - En miles de m
3
de 9300 kcal y en porcentaje. Años 2004-2018
HOTELMDZ
Demanda hotelera por mes y condición de residencia de los viajeros hospedados.
Ciudad de Mendoza. Años 2008-2018
INDUSTRIA
Índice de ventas industriales a valores constantes y variación porcentual.
INMUEBLES
Total de inmuebles involucrados en operaciones en el Registro Público de la
Propiedad, a través de escrituras públicas (corresponden a la 1ª,3ª y 4ª
Circunscripción Judicial) y variación porcentual. Mendoza. Enero 2006-Noviembre
2018
PATVEHI
Patentamiento de Vehículos (Autos, Motos y Maquinarias Agrícolas)
SHOPPING
Índice mensual de ventas de mercaderías y servicios en centros de compras a valores
corrientes. Año base 2010. Mendoza. Enero 2010-Noviembre 2018
SUPERMERCADOS
Ventas a precios constantes por grupo de artículos, en pesos de 2004. Mendoza.
Años 2010-2018
VINO
Despachos de vinos autorizados para ser liberados al consumo. Mendoza. Años 2004
- 2017
Inicialmente usando el software SPSS se realizó un ACP sobre este conjunto de variables
obteniendo los resultados que se muestran a continuación (tabla 2). Una aclaración es que en todos los
casos se utilizó como metodología para rotar los ejes la rotación Varimax.
Tabla 2
Total Variance Explained
Comp
onent
Initial Eigenvalues
Extraction Sums of Squared
Loadings
Rotation Sums of Squared
Loadings
Total
% of
Variance
Cumulative
%
Total
% of
Variance
Cumulative %
Total
% of
Variance
Cumulative
%
1
2.816
23.469
23.469
2.816
23.469
23.469
2.298
19.150
19.150
2
2.447
20.393
43.862
2.447
20.393
43.862
2.155
17.961
37.111
3
1.753
14.608
58.470
1.753
14.608
58.470
2.070
17.251
54.362
4
1.500
12.502
70.971
1.500
12.502
70.971
1.649
13.742
68.103
5
1.056
8.801
79.773
1.056
8.801
79.773
1.400
11.669
79.773
6
.706
5.884
85.656
7
.491
4.095
89.752
8
.403
3.360
93.112
9
.344
2.868
95.979
10
.207
1.722
97.701
11
.177
1.472
99.173
12
.099
.827
100.000
Rotated Component Matrix
Component
1
2
3
4
5
AUTOS
.128
.152
.302
-.830
.174
EELECTCOMER
.040
.136
.898
-.048
-.037
EELECTIND
-.102
-.725
.170
.365
-.062
EELECTRES
-.389
-.151
.586
.016
.594
GASTOTAL
.138
.134
-.226
-.163
.856
HOTELMDZ
.017
-.110
.653
-.281
-.211
INDUSTRIA
.853
.082
-.086
.002
-.098
INMUEBLES
.849
.061
.199
.169
.109
PATVEHI
-.068
.890
-.053
-.043
.025
SHOPPING
.149
.855
.228
.107
.016
SUPERMERCADOS
.449
-.028
-.026
.823
-.017
VINO
.649
-.031
-.470
-.026
.460
Communalities
Initial
Extraction
AUTOS
1.000
.849
EELECTCOMER
1.000
.830
EELECTIND
1.000
.702
EELECTRES
1.000
.871
GASTOTAL
1.000
.848
HOTELMDZ
1.000
.562
INDUSTRIA
1.000
.751
INMUEBLES
1.000
.805
PATVEHI
1.000
.802
SHOPPING
1.000
.816
SUPERMERCADOS
1.000
.881
VINO
1.000
.856
Extraction Method: Principal Component Analysis.
Dados que estos resultados nos dejan 5 componentes principales, con lo cual se complicaría
obtener un índice único. El proceso que se fue haciendo es sacar algunas variables en base a el peso que
estuvieran teniendo en los componentes principales, descartando las de menos peso relativo. También en
base al número de observaciones disponibles para esa variable, ya que no de todas se disponían la misma
cantidad de observaciones, priorizando mantener aquellas que tuvieran más. El resultado final de este
proceso de iteración es el que se muestra en la tabla 3.
Tabla 3
Total Variance Explained
Component
Initial Eigenvalues
Extraction Sums of Squared
Loadings
Rotation Sums of Squared
Loadings
Total
% of
Variance
Cumulative
%
Total
% of
Variance
Cumulative
%
Total
% of
Variance
Cumulative
%
1
2.403
40.054
40.054
2.403
40.054
40.054
2.325
38.753
38.753
2
1.673
27.879
67.933
1.673
27.879
67.933
1.751
29.180
67.933
3
.881
14.689
82.622
4
.564
9.398
92.020
5
.368
6.132
98.152
6
.111
1.848
100.000
Rotated Component Matrix
Component
1
2
EELECTCOMER
.929
.052
EELECTRES
.908
.172
GASTOTAL
.126
.733
INMUEBLES
.038
.701
VINO
-.433
.761
HOTELMDZ
.657
-.333
Communalities
Initial
Extraction
EELECTCOMER
1.000
.866
EELECTRES
1.000
.855
GASTOTAL
1.000
.553
INMUEBLES
1.000
.492
VINO
1.000
.767
HOTELMDZ
1.000
.542
De acuerdo a estos resultados finales usamos 6 variables representativas del nivel de actividad
mensual y obtenemos 2 factores principales. De las 6 variables EELECTCOMER, EELECTRES y HOTELMDZ
están muy representadas en el factor 1, en tanto que GASTOTAL, INMUEBLES y VINO lo están en el factor
2.
Dados estos 2 factores obtenidos, cuyos histogramas están representados en el gráfico 7, los
combinamos algebraicamente sumándolos, para así obtener el índice de actividad que estábamos
buscando.
Ahora bien, para probar la validez de nuestro índice vamos a compararlo respecto al EMAE en el
mismo periodo de tiempo, para que esta comparación tenga sentido lo que se hizo fue estandarizar el
EMAE como se muestra en la Tabla 4 y Gráfico 8 respectivamente
Gráfico 7
Tabla 4
Descriptive Statistics
N
Minimum
Maximum
Mean
Std. Deviation
emae2
120
114.90
168.90
142.5817
11.28243
Valid N (listwise)
120
Gráfico 8
Luego de estandarizado el EMAE lo contraponemos gráficamente con respecto a ambos factores
(gráfico 9) y con respecto a nuestro índice (gráfico 10).
Gráfico 9
Gráfico 10
Como podemos observar en el gráfico 11, si hay una equivalencia en las variaciones de los niveles
de actividad a nivel nacional con respecto a lo que muestra el índice construido para Mendoza.
Adicionalmente se puede observar un aparente rezago del índice respecto del EMAE, para corroborar esto
se intentará ver si este rezago existe también entre el PBG de la provincia y el PBI nacional que serían los
equivalentes de estas series, pero con periodicidad anual. Esto último se muestra en los gráficos 11 y 12
respectivamente.
-3
-2
-1
0
1
2
3
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101105109113117
factor1 factor2 Zemae
-4
-3
-2
-1
0
1
2
3
4
5
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101105109113117
Zemae indice
Gráfico 11
Analizando los resultados obtenidos de nuestro caso de estudio, podemos concluir que a través
del método de ACP fuimos capaces de crear un índice que representa la actividad económica de la
provincia. Al comparar este índice respecto al EMAE hay una equivalencia con algunos periodos de atraso,
lo cual indicaría que las variaciones que se producen a nivel nacional se transmiten luego a la provincia. Al
0
20,000
40,000
60,000
80,000
100,000
120,000
140,000
160,000
1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930313233343536373839
PBI vs PBG
pbi (millones del 93) pbg escalado
-20%
-15%
-10%
-5%
0%
5%
10%
15%
20%
25%
1 2 3 4 5 6 7 8 9 101112 13 14 15 1617 1819 2021 2223 2425 2627 2829 3031 3233 3435 36 3738
PBI vs PBG (variaciones %)
%pbg %pbi
momento de intentar contrastar esta hipótesis haciendo uso del PBG y PBI, la misma pareciera no
cumplirse (teniendo en cuenta que la periodicidad es distinta en ambos casos ya que justamente el índice
se crea porque no hay ninguna estadística con esa periodicidad para la provincia) sino que son bastante
simultaneas las variaciones. Quedaría como posible caso de estudio profundizar en el por qué de este
rezago al hacer el análisis mensual.
CONCLUSIONES
Para sacar las conclusiones usaremos ejemplos de
para que sea más simple analizarlo
conceptualmente más allá de la matemática. Supongamos que tenemos una serie de datos con una
representación gráfica como la del gráfico 12.
Gráfico 12
Calculamos los eigenvectores y el resultado obtenido nos dice que la proyección que minimiza la
función J es la dada por la recta . O sea que nuestros errores van a ser las distancias de cada punto
a esa recta. Entre más correlacionadas estuvieran estas dos variables esta nube de puntos más se parecería
a una recta y por ende menor seria el error. Esto nos da el primer caso en el que puede ser útil el ACP,
cuando las variables iniciales están altamente correlacionadas podemos reducir su dimensionalidad sin
tener una gran pérdida de información.
Otro caso sería que, por ejemplo, la nube de puntos estuviera alrededor del eje X, es decir la recta
tendría pendiente igual a cero. En este caso lo que está pasando es que la variable Y tiene muy poca
varianza. El resultado del ACP para este caso va a ser que el subespacio principal va a ser el eje X, cuyo
vector base es
. Esto quiere decir que el coeficiente que le estamos asignando a los datos de la
variable Y es 0, estamos eliminando esta variable. Este es el segundo caso, cuando haya variables con
varianza muy bajas van a tener coeficientes muy cercanos a cero y  
(en nuestro caso extremo J
es exactamente igual a la varianza de Y, la perdida que tenemos de información es la varianza de la variable
que estamos eliminando). O sea que viendo la matriz S a priori nos podríamos dar cuenta que tanta perdida
de información tendríamos por reducir su dimensionalidad, valores altos de correlaciones o valores bajos
de varianzas indicarían casos donde se podría aplicar ACP con muy poca perdida de información.
Una visión alternativa para el uso del ACP sería como método de compresión de datos. Siguiendo
este ejemplo
inicialmente tendremos dos series de N datos, y el ACP nos deja una sola serie de N
coordenadas. Si a esa serie de coordenadas la multiplicamos por el vector base nos da los N puntos de
nuevo bidimensionales, pero ahora todos sobre la recta . Visto para grandes cantidades de datos
esto nos permitiría almacenarlas solo con las series de coordenadas que tienen una dimensionalidad
menor y la matriz de coordenadas haría las veces de decodificador para volver a obtener la información
inicial.
Una última conclusión y no poco importante es que la componente principal obtenida (la “nueva
variable”) va a ser una combinación lineal de las variables iniciales. El vector base que me genera la recta
 es


(aproximadamente). Entonces el valor que va a tener la coordenada, que puede ser
vista como una nueva variable Z va a ser los datos de cada par (X,Y) combinados linealmente con esos
coeficientes. Esto recordemos sale del resultado de la coordenada para proyecciones ortogonales (


)
BIBLIOGRAFÍA CONSULTADA
GÉRON, Aurélien (2017). Hands-on machine learning with Science-kit Learn & TensorFlow. O’Reilly.
HASTIE, T., Tibshirani R. & Friedman, J. (2008) . The elements of statistical learning.
MATHEMATICS for machine learning: PCA (2016). Curso. Imperial College of London.
PÉREZ, Cesar (2004). Técnicas de análisis multivariante de datos: Aplicaciones con SPSS.
RAICHMAN, Silvia & Totter, Eduardo (2016). Geometría analítica para ciencias e ingenierías.